智能论文笔记

Adversarial Feature Desensitization

Pouya Bashivan , Reza Bayat , Adam Ibrahim , Kartik Ahuja , Mojtaba Faramarzi , Touraj Laleh , Blake Aaron Richards , Irina Rish

分类：机器学习 | (统计)机器学习

2020-06-08

已知神经网络容易受到对抗性攻击的影响 - 轻微但精心构建的输入扰动，这会造成巨大损害网络的性能。已经提出了许多防御方法来通过培训对抗对抗扰动的投入来改善深网络的稳健性。然而，这些模型通常仍然容易受到在训练期间没有看到的新类型的攻击，甚至在以前看到的攻击中稍微强大。在这项工作中，我们提出了一种新的对抗性稳健性的方法，这在域适应领域的见解中建立了洞察力。我们的方法称为对抗性特征脱敏（AFD），目的是学习功能，这些特征是不变的对输入的对抗扰动。这是通过游戏实现的，我们学习了预测和鲁棒（对对抗性攻击不敏感）的特征，即不能用于区分自然和对抗数据。若干基准测试的经验结果证明了提出的方法对广泛的攻击类型和攻击优势的有效性。我们的代码可在https://github.com/bashivanlab/afd获得。

translated by 谷歌翻译

Planning with Complex Data Types in PDDL

Mojtaba Elahi , Jussi Rintanen

分类：人工智能

2022-12-29

Practically all of the planning research is limited to states represented in terms of Boolean and numeric state variables. Many practical problems, for example, planning inside complex software systems, require far more complex data types, and even real-world planning in many cases requires concepts such as sets of objects, which are not convenient to express in modeling languages with scalar types only. In this work, we investigate a modeling language for complex software systems, which supports complex data types such as sets, arrays, records, and unions. We give a reduction of a broad range of complex data types and their operations to Boolean logic, and then map this representation further to PDDL to be used with domain-independent PDDL planners. We evaluate the practicality of this approach, and provide solutions to some of the issues that arise in the PDDL translation.

translated by 谷歌翻译

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen , Xiao Wang , Soravit Changpinyo , AJ Piergiovanni , Piotr Padlewski , Daniel Salz , Sebastian Goodman , Adam Grycner , Basil Mustafa , Lucas Beyer

分类：计算机视觉 | 自然语言处理

2022-09-14

有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利（Pali）根据视觉和文本输入生成文本，并使用该界面以许多语言执行许多视觉，语言和多模式任务。为了训练帕利，我们利用了大型的编码器语言模型和视觉变压器（VITS）。这使我们能够利用其现有能力，并利用培训它们的大量成本。我们发现，视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多，因此我们训练迄今为止最大的VIT（VIT-E），以量化甚至大容量视觉模型的好处。为了训练Pali，我们基于一个新的图像文本训练集，其中包含10B图像和文本，以100多种语言来创建大型的多语言组合。帕利（Pali）在多个视觉和语言任务（例如字幕，视觉问题，索方式，场景文本理解）中实现了最新的，同时保留了简单，模块化和可扩展的设计。

translated by 谷歌翻译

FaceTopoNet: Facial Expression Recognition using Face Topology Learning

Mojtaba Kolahdouzi , Alireza Sepas-Moghaddam , Ali Etemad

分类：计算机视觉

2022-09-13

先前的工作表明，使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet，这是面部表达识别的端到端深层模型，它能够学习面部有效的树拓扑。然后，我们的模型遍历学习的树以生成序列，然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构，并为学习纹理提供一个流。结构流着重于面部地标的位置，而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后，我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet，FER2013，ExpW和RAF-DB，以及一个实验室控制的数据集（CK+）来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能，并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验，以评估模型中不同组件和参数的影响。最后，我们执行鲁棒性实验，并证明与该地区其他领先方法相比，Facetoponet对阻塞更具稳健性。

translated by 谷歌翻译

Artifact-Tolerant Clustering-Guided Contrastive Embedding Learning for Ophthalmic Images

Min Shi , Anagha Lokhande , Mojtaba S. Fazli , Vishal Sharma , Yu Tian , Yan Luo , Louis R. Pasquale , Tobias Elze , Michael V. Boland , Nazlee Zebardast

分类：计算机视觉 | 人工智能

2022-09-02

眼科图像和衍生物，例如视网膜神经纤维层（RNFL）厚度图对于检测和监测眼科疾病至关重要（例如，青光眼）。对于计算机辅助诊断眼疾病，关键技术是自动从眼科图像中提取有意义的特征，这些特征可以揭示与功能视觉丧失相关的生物标志物（例如RNFL变薄模式）。然而，将结构性视网膜损伤与人类视力丧失联系起来的眼科图像的表示，主要是由于患者之间的解剖学变化很大。在存在图像伪像的情况下，这项任务变得更加具有挑战性，由于图像采集和自动细分，这很常见。在本文中，我们提出了一个耐伪造的无监督的学习框架，该框架称为眼科图像的学习表示。 Eyelearn具有一个伪影校正模块，可以学习可以最好地预测无伪影眼镜图像的表示形式。此外，Eyelearn采用聚类引导的对比度学习策略，以明确捕获内部和间形的亲和力。在训练过程中，图像在簇中动态组织，以形成对比样品，其中鼓励在相同或不同的簇中分别学习相似或不同的表示形式。为了评估包冰者，我们使用青光眼患者的现实世界眼科摄影图数据集使用学习的表示形式进行视野预测和青光眼检测。广泛的实验和与最先进方法的比较验证了眼球从眼科图像中学习最佳特征表示的有效性。

translated by 谷歌翻译

HTML版本

Three-dimensional micro-structurally informed in silico myocardium -- towards virtual imaging trials in cardiac diffusion weighted MRI

Mojtaba Lashgari , Nishant Ravikumar , Irvin Teh , Jing-Rebecca Li , David L. Buckley , Jurgen E. Schneider , Alejandro F. Frangi

分类：计算机视觉

2022-08-22

在硅组织模型中，可以评估磁共振成像的定量模型。这包括对成像生物标志物和组织微结构参数的验证和灵敏度分析。我们提出了一种新的方法来生成心肌微结构的现实数值幻影。我们扩展了以前的研究，该研究考虑了心肌细胞的变异性，心肌细胞（插入式椎间盘）之间的水交换，心肌微结构混乱和四个钣金方向。在该方法的第一阶段，心肌细胞和钣金是通过考虑心肌到骨膜细胞连接的形状变异性和插入式椎间盘而产生的。然后，将薄板汇总和定向在感兴趣的方向上。我们的形态计量学研究表明，数值和真实（文献）心肌细胞数据的体积，长度以及一级和次要轴的分布之间没有显着差异（$ p> 0.01 $）。结构相关性分析证实了硅内组织与实际组织的混乱类别相同。此外，心肌细胞的模拟螺旋角（HA）和输入HA（参考值）之间的绝对角度差（$ 4.3^\ Circ \ PM 3.1^\ Circ $）与所测量HA之间的绝对角差有很好的一致性使用实验性心脏扩散张量成像（CDTI）和组织学（参考值）（Holmes等，2000）（$ 3.7^\ Circ \ PM6.4^\ Circ $）和（Scollan等，1998）（$ 4.9） ^\ circ \ pm 14.6^\ circ $）。使用结构张量成像（黄金标准）和实验性CDTI，输入和模拟CDTI的特征向量和模拟CDTI的角度之间的角度距离小于测量角度之间的角度距离。这些结果证实，所提出的方法比以前的研究可以为心肌产生更丰富的数值幻象。

translated by 谷歌翻译

ProjB: An Improved Bilinear Biased ProjE model for Knowledge Graph Completion

Mojtaba Moattari , Sahar Vahdati , Farhana Zulkernine

分类：人工智能

2022-08-15

知识图嵌入（KGE）方法已从广泛的AI社区（包括自然语言处理（NLP））中引起了极大的关注，用于文本生成，分类和上下文诱导。用少数维度嵌入大量的相互关系，需要在认知和计算方面进行适当的建模。最近，开发了有关自然语言的认知和计算方面的许多目标功能。其中包括最新的线性方法，双线性，具有歧管的内核，投影 - 空间和类似推断。但是，这种模型的主要挑战在于它们的损失函数，将关系嵌入的维度与相应的实体维度相关联。当错误估计对应物时，这导致对实体之间相应关系的预测不准确。 Bordes等人发表的Proje Kge由于计算复杂性低和模型改进的高潜力，在所有翻译和双线性相互作用的同时，在捕获实体非线性的同时，都改善了这项工作。基准知识图（KGS）（例如FB15K和WN18）的实验结果表明，所提出的方法使用线性和双线性方法以及其他最新功能的方法在实体预测任务中的最新模型优于最先进的模型。另外，为该模型提出了平行处理结构，以提高大型kg的可伸缩性。还解释了不同自适应聚类和新提出的抽样方法的影响，这被证明可以有效提高知识图完成的准确性。

translated by 谷歌翻译

Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback

Jing Xu , Megan Ung , Mojtaba Komeili , Kushal Arora , Y-Lan Boureau , Jason Weston

分类：自然语言处理 | 人工智能

2022-08-05

经过培训的模拟静态数据集的冷冻模型永远无法提高其性能。可以采用互联网进行互联网以获取最新信息并在部署期间从人类那里获得反馈的模型提供了适应新信息并提高其性能的承诺。在这项工作中，我们研究了如何在此类学习框架中提高以互联网为导向的对话技能。我们收集人类互动的部署数据，并公开可用，并收集各种类型的人类反馈 - 包括二进制质量测量，自由形式的文本反馈和罚款良好的失败原因。然后，我们研究了各种从此类反馈中改进的算法，包括标准监督学习，拒绝抽样，模型引导和基于奖励的学习，以便对哪种类型的反馈和算法效果最好。我们发现最近介绍的导演模型（Arora等人，'22）比其他现有方法显示出显着改善。

translated by 谷歌翻译

BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage

Kurt Shuster , Jing Xu , Mojtaba Komeili , Da Ju , Eric Michael Smith , Stephen Roller , Megan Ung , Moya Chen , Kushal Arora , Joshua Lane

分类：自然语言处理 | 人工智能

2022-08-05

我们提出了Blenderbot 3，这是一个175B参数对话模型，能够通过访问Internet和长期内存进行开放域对话，并接受了大量用户定义的任务的培训。我们同时发布了模型权重和代码，还将模型部署在公共网页上，以与有机用户进行交互。该技术报告描述了该模型的构建方式（建筑，模型和培训计划）以及其部署的细节，包括安全机制。人类评估表明，它优于现有的开放域对话代理，包括其前身（Roller等，2021； Komeili等，2022）。最后，我们使用部署收集的数据详细介绍了持续学习的计划，该数据也将公开发布。因此，该研究计划的目标是使社区能够研究通过互动学习的不断改进的负责任的代理商。

translated by 谷歌翻译